В помощь пользователям

В данной методике мы воспользуемся веб-интерфейсом Issuecrawler, разработанным под руководством учёных Амстердамского университета [http://www.govcom.org/about_us.html].

Приложение Issuecrawler обрабатывает веб-страницы и "вытаскивает" из них ссылки на другие страницы в сети Интернет. Данное приложение может быть использовано, если вам необходимо построить сеть организации в сети Интернет, т. е. увидеть, каким образом "связаны" некоторые веб-страницы. Вы также можете проанализировать сети веб-страниц организаций одной тематики, будь то сайты международных некоммерческих организаций по защите лиц, страдающих альбинизмом, либо сайты органов, связанных с борьбой с коррупцией, либо сайты информационных агентств. Технически вы можете обработать в Issuecralwer любые веб-страницы, однако, не все веб-страницы и их ссылки построят сеть. С другой стороны, тот факт, что веб-страницы не выстраивают сеть, тоже является результатом исследования. Разберем на примере, каким образом выстроить сеть между веб-страницами при помощи Issuecrawler.

В нашем примере мы разберем работу Issuecrawler на примере веб-страниц факультетов одного куста Санкт-Петербургского государственного университета:
http://politology.spbu.ru
http://sir.spbu.ru
http://soc.spbu.ru
http://www.econ.spbu.ru
Приложение Issuecrawler покажет нам сеть данных веб-страниц с другими страницами в сети Интернет. Связью в этой сети будет ссылка на другую веб-страницу, узлом будет являться веб-страница.

1. Для начала перейдите по адресу https://www.issuecrawler.net/ и запросите аккаунт "Request account". После заполнения краткой формы Вам вышлют на электронную почту пароль, однако, одобрение аккаунта вы получите несколько позднее. Сохраните логин и пароль.



2. После одобрения аккаунта зайдите в Issuecrawler по адресу https://www.issuecrawler.net/ . Зайдите в ваш аккаунт. Вы видите четыре поля: the Lobby, Issue Crawler, Network Manager, Archive. Начинать работу необходимо с поля Issue Crawler. В этом поле введите веб-адреса факультетов, как на картинке ниже. Уже после обработки данных, в поле Network Manager вы найдете результаты.



3. После ввода веб-страниц нажмите Harvest. Вы увидите три метода обработки веб-страниц (Crawling methods): Co-link, Snowball, Inter-actor, - и настройки к каждому из методов (Settings). Вы можете использовать любой из трех методов. Остановимся на них подробнее.

Метод 1 "Co-link"
При выборе данного метода приложение "вытаскивает" из указанных страниц (а также подстраниц - страниц указанных хостов) ссылки на иные сайты в сети Интернет и проверяет, какие ссылки есть, как минимум, у двух из указанных страниц. Если ссылки есть, как минимум, у двух из указанных страниц, то ссылки попадают в сеть в качестве узлов сети. Далее приложение проверяет, ссылаются ли "вытащенные" ссылки друг на друга.*

Метод 2 "Snowball"
При выборе данного метода приложение "вытаскивает" ссылки из указанных страниц, а также ссылки из "вытащенных" ссылок. Отличие от первого метода: все вытащенные ссылки попадают сеть, в том числе если ссылка "вытащена" из ОДНОЙ из указанных страниц. Данный метод подойдет, если при первом сеть не обнаружена либо если у вас стоит задача посмотреть, например, информационное поле вокруг двух веб-страниц.

Метод 3 "Inter-actor"
Третий метод похож на первый, однако, его отличие в том, что он включает в сеть только ссылки с указанных хостов, а также включает в сеть заданные страницы.

*Примечание: количество анализируемых ссылок ограничено и может быть исправлено в разделе Setting - Ceilings (advanced). Так, по умолчанию максимальное количество "вытаскиваемых" ссылок из одного хоста составляет 500, а максимальное количество ссылок за одно обращение (iteration) составляет 40000.



4. Итак, в нашем примере мы воспользуемся методом 1 Co-link. Настройки следующие: Privilege starting points - On (для того, чтобы сохранить исходные веб-страницы в сети), Perform co-link analysis by - Page (для того, чтобы вытаскивать ссылки по страницам, а не по хостам. Нас интересует распространение информации среди университетских сайтов и подстраниц, по этой причине, выбирая Page, мы получим больше информации), Set iterations - 3 (с целью обработать больше ссылок, в этом случае максимальное количество ссылок 120000 и 1500 ссылок с одного хоста), Set crawl depth - 3 (для того, чтобы обработать данные подстраниц указанных веб-страниц. Выбирайте 2 или 3, если вы задаете домашнюю страницу, как в нашем примере).
На подобный запрос уйдет около шести часов, поэтому не забудьте поставить галочку и указать адрес электронной почты. По нему вам пришлют уведомление о завершении сбора данных. Задайте имя для проекта (Name crawl). Нажмите Launch.



5. Далее дождитесь уведомления о выполнении сбора данных. Зайдите на https://www.issuecrawler.net/ и перейдите на вкладку Network manager. Вы увидите выполненный проект, нажмите на него. В нашем примере это SPBU TEST 1.



6. После клика на проект вы увидите страницу, где можно визуализировать сеть (Select Network Depiction - Cluster), а также ссылки внизу на сами данные. Также можно скачать файл для последующей визуализации в Gephi, Netminer или Ucinet. Вам предложены:
- xml source file - файл с данными в формате xml;
- raw data (comma separated) - сырые данные в формате txt, отделены запятой, хорошо подойдут для последующего анализа в Tableau;
- retrieve startingpoints and network urls - изначальных веб-страниц и проанализированных ссылок;
- ranked actor list by inlink count from total network (by page) - ранжированный список узлов в соответствии с количеством входящих ссылок со страниц (TOP5 в нашем примере: spbu.ru, guestbook.spbu.ru, law.spbu.ru, campus.spbu.ru, eng.spbu.ru;
- ranked actor list by inlink count from total network (by site) - ранжированный список узлов в соответствии с количеством входящих ссылок с сайтов (TOP5 в нашем примере: spbu.ru, guestbook.spbu.ru, campus.spbu.ru, abiturient.spbu.ru, eng.spbu.ru. Мы видим, что из второго списка TOP5 исчез сайт юридического факультета, но появился сайт для абитуриентов. Это произошло, так как на последний из того, что вошло в нашу сеть, ссылается больше внешних сайтов);
- ranked actor list by inlink count from crawled population - ранжированный список узлов в соответствии со всеми обработанными ссылками, в т. ч. и не вошедшими в сеть;
- ranked list of pages per node - ранжированный список страниц в соответствии с количеством ссылок из центра и периферии сети. В нашем примере на третье место по совокупности ссылок из периферии выходит веб-страница Центра экспертиз;
- actor list with interlinkings/non-matrix version - матрица перекрестных ссылок узлов сети, в нашем примере видно, что большинство перекрестных ссылок сосредоточены на сайте spbu.ru;
- page list with their interlinkings - список страниц со списком ссылающихся на них страниц. Так, в списке мы видим, например, откуда идут ссылки на Центр экспертиз, а откуда нет, где больше публикуется информации о Научном парке, а где меньше и т. д.;
- Export core network to GEXF (open with Gephi, instructions) - экспорт файла для работы в Gephi;
- UCInet / NetMiner compatible data file - экспорт файла для работы в UCInet или Netminer.

Для визуализации сети нажмите Cluster - View depiction. После того, как появится сети, обратите внимание на легенду. Там есть настраиваемые поля. Если вы выберете Links Off, вы сможете кликать на узлы сети и выводить на легенду информацию о каждом узле в отдельности. Размер узла зависит от количества входящих ссылок. Связь - ссылка на веб-страницу. В сеть попали только те сайты, на которые ссылались как минимум две страницы из заданных в самом начале четырех. С учетом летнего времени - сбор данных произведен 14-15 августа 2017 г. - очевидно, в топ выбиваются страницы, посвященные приему абитуриентов. Видно, что, в целом, распространение информации носит централизованный характер. В то же время, среди попавших в сеть факультетов выбиваются философский и международных отношений, они выпадают из центра сети. Видно, что выпадает из центра сети и сайт Ассоциации выпускников: по-видимому, в плане наполнения сайтов Ассоциация работает больше с главным зданием и юридическим факультетом. Необходимо помнить, что в сеть попали только те веб-страницы, на которые ссылаются, как минимум, две из четырех заданных. Другими словами, это сеть тех страниц, которые наиболее проработаны в информационном плане на сайтах четырех факультетов куста. Более детальные выводы можно сделать из подробного анализа сайтов четырех факультетов по парам. Справа в нижней части легенды можно сохранить визулизацию в различных форматах.



Печать

 

Tableau Server — это веб-приложение для создания визуализаций данных, которые могут быть распространены среди любой нужной аудитории. Визуализации могут быть объединены в единую интерактивную панель (dashboard), которая будет доступна вам и вашим коллегам в браузере.
Данные в интерактивной визуализации оперативно обновляются в случае изменения данных в источнике, другие люди могут работать с данными, применяя запрограммированные фильтры и другие возможности.

Tableau Server доступен по адресу tableau.rcsoc.spbu.ru
Логин и пароль для интерактивного доступа к визуализации получается через заявку на проведение исследования на базе РЦ ЦСИИ

 

Доступ к интерактивной панели через интернет

Войдите на Tableau Server РЦ ЦСИИ (оформите заявку на получение логина и пароля, если еще не зарегистрированы)

  1. Перейдите в нужный проект
  2. Выберите требуемый workbook
  3. Нажмите Share
  4. Вам доступны две возможности:
  • Ссылка для распространения: пользователи, переходящие по ней, будут попадать на онлайн-страницу, сгенерированную специально для ваших данных. Визуальное представление доступно для любого, кто получит ссылку.
  • HTML-код для размещения вашей интерактивной панели с визуальным материалом на сайте и/или личной странице


Для интерактивной панели могут быть заданы следующие параметры:

  1. Размер (ширина и высота)
  2. Отображение панели инструментов (toolbar)
  3. Отображение закладок (tabs)

Для представления вашей визуализации в рамках презентации или отчета вы можете скопировать результаты в виде изображения — отдельные рабочие листы или панель целиком. Тем не менее, нередко требуется представить данные с сохранением динамической составляющей.

 

Интерактивная панель в презентации MS PowerPoint

Интерактивную визуализацию можно добавить в презентацию MS PowerPoint. Для ее отображения во время презентации потребуется доступ в интернет.

  1. Настройте MS PowerPoint для отображения веб-страниц. Для этого установите приложение LiveWeb http://skp.mvps.org/liveweb.htm
  2. Откройте MS PowerPoint. Выберите Параметры (PowerPoint Options) -> Надстройки (Add-Ins) -> Надстройки PowerPoint (PowerPoint Add-ins). Нажмите Перейти (Go)

     

  3. В открывшемся диалоговом окне выберите Добавить (Add New)
  4. Теперь с помощью установленной надстройки разместим интерактивную панель, созданную с помощью Tableau Server, в презентации PowerPoint. Выберите функцию Web Page в меню Вставка

     

  5. На странице #1 введите URL панели, которую вы хотите отображать на слайде, и нажмите добавить (Add). После того, как вы добавите все желаемые материалы, перейдите к следующей странице кнопкой Next

     

  6. На странице #2 отметьте, требуется ли обновлять визуализацию автоматически в режиме реального времени.

     

  7. На странице #3 определите размер и положение панели на слайде, затем нажмите Next. На странице #4 нажмите Finish. Появится сообщение, сообщающее о том, что интерактивная. Панель успешно связана со слайдом PowerPoint.
  8. Сохраните и закройте презентацию PowerPoint, затем запустите ее вновь, чтобы убедиться, что связь между презентацией и интерактивной панелью работает без сбоев.

Обращаем ваше внимание, что для успешной работы интерактивной визуализации в рамках презентации требуется установленная надстройка для отображения веб-страниц на слайдах и доступ в интернет.
 

Интерактивная панель в документе MS Word

  1. В меню Вставка выберите пункт Видео из интернета

  2. Скопируйте код для размещения на веб-странице в вашей интерактивной визуализации на Tableau Server

     
  3. Вставьте полученный код в строку Из кода внедрения видео


     
  4. Изначально ссылка на презентацию вставится в виде черного прямоугольника. Через меню выможете добавить любое изображение, при клике на которое будет запускаться интерактивная визуализация.

 



Обращаем ваше внимание, что для успешной работы интерактивной визуализации в документе MS Word во время просмотра требуется доступ в интернет.
 

Печать

 

Tableau Desktop — это инструмент для визуального анализа, позволяющий осуществлять динамическую фильтрацию данных, выделять тренды или проводить глубинный когортный анализ, а также создавать интерактивные карты. Программа оснащена встроенными инструментами для анализа трендов, регрессионного и корреляционного анализа.

Если вам требуется больше узнать о том, как создавать визуализации или как работать с ними, мы рекомендуем бесплатные онлайн-тренинги на сайте производителей программы.

В качестве примеров работы для визуального анализа приведены визуализации данных на сайте tableau.com

 

Представление данных опросов

Tableau позволяет оперативно представить данные опроса. В использованном примере респондентам предлагалось оценить различные направления по 10-балльной шкале, где 10 — наивысшая оценка. Визуализация показывает связь между уровнем удовлетворенности, экспертизой фирмы и вероятностью рекомендация для нескольких сегментов покупателей.  Каждая точка представляет сегмент, определенный комбинацией нескольких признаков — индустрии, рабочих обязанностей, пола и продукта. Размер точки опеределяет число покупателей в этом сегменте. В целом можно сказать, что чем дольше покупатель использует продукт (зеленый цвет), тем выше его оценка.

 

 

Tableau позволяет провести экстраполяцию данных. Данный пример представляет визуализацию, предназначенную для выделения продуктов с лучшими или с худшими показателями. Изменяя с помощью фильтров штат, уровент затрат на маркетинг и интерес покупателей можно предсказать, в какой момент следует прекратить маркетинговую компанию.

 

 

 

Экономический анализ

С помощью Tableau можно создавать лаконичные представления значимых индикаторов. В примере представлены экономические индикаторы и данные фондового рынка за последние сто лет. Вы можете выбрать отдельный год и показать для него все метрики в контексте данных за весь век.

 

 

Tableau имеет встроенные возможности для анализа чувствительности (what-if analysis). На его основании могут быть сделаны, например, предсказания уровня продаж с использованием ваших прогнозов планируемого роста бизнеса и планируемой текучести клиентов. Когда факторы, использованные для прозноза, изменяется, — прозноз продаж также обновится в несколько кликов.

 

Возможности Tableau для анализа данных из интернета

Визуализация показывает распространение твитов с хештегами #iphone4S и #iphone5, связанных с анонсированием нового iPhone4S вместо ожидавшегося iPhone5. Каждая точка — отдельный твит. При наведении показывается текст твита и его автор. На визуализации мы видим географическое распределение твитов и динамику популярности отдельных хештегов. Вероятно, создатель этой визуализации не ставил себе целью работу с текстами: всегда корректно отображаются только англоязычные твиты.

 

 

 

Интерактивную панель Tableau можно соединить напрямую с сервисом Google Analytics. В данном примере показывается, как распределен трафик сайта www.tableau.com по странам, какие разделы более или менее популярны, сколько посетителей приходит на сайт в целом и в его отдельные разделы из определенной страны и в конкретные промежутки времени. 

На второй закладке панели представлены автоматически рассчитанные метрики для отдельных страниц сайта.

 

По согласованным заявкам работу с визуализациями через программу Tableau Desktop осуществляют сотрудники центра. Создание простых презентаций возможно силами самих пользователей через веб-интерфейс Tableau Server. Помимо этого, вы можете скачать бесплатную 14-дневную пробную версию Tableau и, создав собственную визуализацию, разместить ее на Tableau Server РЦ ЦСИИ. Tableau также предлагает бесплатное размещение созданных визуализаций в интернет с помощью сервиса Tableau Public, но размещенные там данные доступны широкой аудитории.
 

Печать